Học máy là gì? Các công bố khoa học về Học máy

Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thi...

Học máy (Machine Learning) là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu về việc phát triển các thuật toán và mô hình để máy tính tự động học hỏi và cải thiện hiệu suất từ kinh nghiệm mà không cần được lập trình cụ thể. Phương pháp này dựa trên việc xây dựng các mô hình dự đoán từ một tập dữ liệu huấn luyện và sử dụng các thuật toán để tìm ra các quy tắc, mô hình hoặc hàm số từ dữ liệu đó. Học máy có thể được áp dụng trong nhiều lĩnh vực như điều khiển tự động, nhận dạng hình ảnh, dịch thuật tự động, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác.
Học máy (Machine Learning) được chia thành ba loại chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning) và học bán giám sát (semi-supervised learning).

1. Học có giám sát: Trong học có giám sát, mô hình học từ dữ liệu được gán nhãn trước đó. Ví dụ, nếu chúng ta muốn xây dựng một mô hình để dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí, chúng ta sẽ cung cấp cho mô hình một tập dữ liệu gồm các ví dụ với diện tích, số phòng ngủ, vị trí và giá nhà tương ứng. Mô hình sẽ học từ các ví dụ này và sau đó có thể dự đoán giá nhà cho các ví dụ mới không có nhãn.

2. Học không giám sát: Trong học không giám sát, mô hình học từ dữ liệu không có nhãn hoặc không có thông tin về kết quả mong muốn. Mục tiêu là khám phá cấu trúc, mẫu hay nhóm từ dữ liệu. Ví dụ, một thuật toán gom cụm (clustering algorithm) sẽ phân loại các điểm dữ liệu vào các nhóm dựa trên sự tương đồng của chúng.

3. Học bán giám sát: Trong học bán giám sát, dữ liệu được gán nhãn chỉ cho một phần nhỏ, trong khi phần còn lại là không có nhãn. Mô hình học từ cả các ví dụ có nhãn lẫn không nhãn để tìm hiểu mối quan hệ giữa dữ liệu và nhãn và sau đó sử dụng thông tin đó để dự đoán các nhãn cho các ví dụ không có nhãn.

Các phương pháp học máy phổ biến bao gồm cây quyết định (decision tree), mạng thần kinh nhân tạo (artificial neural networks), máy vector hỗ trợ (support vector machines), học tăng cường (reinforcement learning) và rất nhiều phương pháp khác. Quá trình học bao gồm việc chọn và xử lý dữ liệu, lựa chọn thuật toán học máy phù hợp, huấn luyện mô hình, và đánh giá và tinh chỉnh mô hình để đạt hiệu suất tốt nhất. Học máy đóng vai trò quan trọng trong việc phân tích dữ liệu, dự báo, nhận dạng, và tự động hóa quy trình trong nhiều lĩnh vực khác nhau.

Danh sách công bố khoa học về chủ đề "học máy":

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắtProtein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Học máy: Xu hướng, góc nhìn, và triển vọng
American Association for the Advancement of Science (AAAS) - Tập 349 Số 6245 - Trang 255-260 - 2015
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.
#Học máy #trí tuệ nhân tạo #khoa học dữ liệu #thuật toán #dữ liệu trực tuyến #tính toán chi phí thấp #ra quyết định dựa trên bằng chứng #chăm sóc sức khỏe #sản xuất #giáo dục #mô hình tài chính #cảnh sát #tiếp thị.
Các cuộc tấn công đối kháng vào máy học y tế
American Association for the Advancement of Science (AAAS) - Tập 363 Số 6433 - Trang 1287-1289 - 2019
Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới
#tấn công đối kháng #máy học y tế #lỗ hổng #bảo mật #trí tuệ nhân tạo
Evidence that specific T lymphocytes may participate in the elimination of chronic myelogenous leukemia
Nature Medicine - Tập 6 Số 9 - Trang 1018-1023 - 2000
Kỹ Thuật Xử Lý Ô Nhiễm Kim Loại Nặng Từ Đất: Tích Tụ Tự Nhiên So Với Chiết Xuất Cải Tiến Hóa Học
Journal of Environmental Quality - Tập 30 Số 6 - Trang 1919-1926 - 2001
TÓM TẮTMột thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là Thlaspi caerulescens J. Presl & C. Presl so với chiết xuất cải tiến hóa học sử dụng ngô (Zea mays L.) được xử lý bằng axit ethylenediaminetetraacetic acid (EDTA). Nghiên cứu sử dụng đất bị ô nhiễm công nghiệp và đất nông nghiệp bị ô nhiễm kim loại từ bùn thải. Ba vụ mùa của T. caerulescens trồng trong vòng 391 ngày đã loại bỏ hơn 8 mg kg−1 Cd và 200 mg kg−1 Zn từ đất bị ô nhiễm công nghiệp, tương đương 43% và 7% các kim loại trong đất. Ngược lại, nồng độ Cu cao trong đất nông nghiệp đã làm giảm nghiêm trọng sự phát triển của T. caerulescens, do đó hạn chế tiềm năng chiết xuất của nó. Quá trình xử lý bằng EDTA đã tăng đáng kể tính hòa tan của kim loại nặng trong cả hai loại đất, nhưng không dẫn đến tăng lớn hàm lượng kim loại trong chồi ngô. Chiết xuất Cd và Zn bằng ngô + EDTA nhỏ hơn nhiều so với T. caerulescens từ đất bị ô nhiễm công nghiệp, và nhỏ hơn (Cd) hoặc tương tự (Zn) so với đất nông nghiệp. Sau khi xử lý bằng EDTA, kim loại nặng hòa tan trong nước lỗ chân lông của đất chủ yếu tồn tại dưới dạng phức hợp EDTA-kim loại, duy trì trong vài tuần. Hàm lượng cao của kim loại nặng trong nước lỗ chân lông sau quá trình xử lý EDTA có thể gây nguy cơ môi trường dưới dạng ô nhiễm nước ngầm.
#Xử lý ô nhiễm #tích tụ tự nhiên #chiết xuất hóa học #kim loại nặng #<i>Thlaspi caerulescens</i> #<i>Zea mays</i> #EDTA #ô nhiễm nước ngầm #sự bền vững môi trường
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
All Patients with Acute Nonlymphocytic Leukemia May Have a Chromosomal Defect
New England Journal of Medicine - Tập 305 Số 3 - Trang 135-139 - 1981
Google Earth Engine, Dữ liệu vệ tinh truy cập mở, và Máy học hỗ trợ lập bản đồ xác suất đầm lầy trên diện rộng
Remote Sensing - Tập 9 Số 12 - Trang 1315
Các tiến bộ hiện đại trong điện toán đám mây và các thuật toán máy học đang thay đổi cách sử dụng dữ liệu quan sát Trái Đất (EO) để giám sát môi trường, đặc biệt là trong thời kỳ dữ liệu vệ tinh truy cập mở và miễn phí đang trở nên phổ biến. Việc phân định đầm lầy là một ứng dụng đặc biệt có giá trị của xu hướng nghiên cứu nổi lên này, vì đầm lầy là một thành phần quan trọng về sinh thái nhưng lại thường bị thiếu đại diện trong các chương trình lập bản đồ và giám sát hiện đại, đặc biệt ở cấp độ khu vực và quốc gia. Lợi dụng Google Earth Engine và phần mềm thống kê R, chúng tôi đã phát triển một quy trình công việc để dự đoán khả năng xuất hiện đầm lầy sử dụng mô hình máy học cây hồi quy tăng cường được áp dụng cho dữ liệu địa hình số và EO. Nghiên cứu tại khu vực 13.700 km2 ở Bắc Alberta, mô hình tốt nhất của chúng tôi đã cho ra kết quả xuất sắc, với giá trị AUC (diện tích dưới đường cong đặc tính hoạt động của máy thu) là 0.898 và giá trị sự biến thiên giải thích là 0.708. Kết quả của chúng tôi chứng tỏ vai trò trung tâm của các biến địa hình chất lượng cao trong việc mô hình hóa phân bố đầm lầy ở quy mô khu vực. Việc bao gồm các biến quang học và/hoặc radar vào quy trình đã cải thiện đáng kể hiệu suất của mô hình, mặc dù dữ liệu quang học hoạt động tốt hơn một chút. Việc chuyển đổi mô hình khả năng xuất hiện đầm lầy của chúng tôi thành phân loại nhị phân Wet-Dry cho độ chính xác tổng thể 85%, gần như giống với giá trị thu được từ giải pháp Tổng hợp Đầm lầy Alberta (AMWI): bản kiểm kê đương đại được Chính phủ Alberta sử dụng. Tuy nhiên, quy trình công việc của chúng tôi chứa đựng một số lợi thế chính so với quy trình được sử dụng để sản xuất AMWI, và cung cấp một nền tảng có thể mở rộng cho các sáng kiến giám sát toàn tỉnh.
#Điện toán đám mây #Máy học #Dữ liệu quan sát Trái Đất #Phân định đầm lầy #Google Earth Engine #Hồi quy tăng cường #Alberta #Vệ tinh truy cập mở #Mô hình hóa đầm lầy #Biến địa hình #Dữ liệu quang học #Dữ liệu radar
Identification and antioxidant activity of anthocyanins extracted from the seed and cob of purple corn (Zea mays L.)
Innovative Food Science & Emerging Technologies - Tập 11 Số 1 - Trang 169-176 - 2010
Tổng số: 343   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10